或許用「資料表」來看,事情會比較容易說清楚。下圖是網路上隨便找到的一張資料表,看起來是某公司的銷售記錄,上面的「欄位」(column)有「代號」、「姓名」、「電話」、「地址」...等等,而每一「列」是一筆資料,代表了一筆訂單。
以這張表為例,所謂的「很多」資料,很容易被理解為是指「很多筆訂單」,但是其實這種形式的「多」,對分析來說意義是很有限的。如果記得基礎統計的「抽樣」部分,應該還有印象,樣本數增加可以讓我們對母體的推論更有信心,當樣本數超過某個限度之後,增加的效益是很有限的。所以資料筆數多,表格很長的「深資料」,其意義是有限的。
如果說「巨資料」能提供洞見(insight),資訊其實常常來自於不同欄位之間,一些不容易被直接發現的關連性。也就是說,資料表格的欄位數,或者說是「寬度」,對「藉由分析產生洞見」這件事有相當大的貢獻。
以上面表格的例子來說,當我們累積了 1000 筆交易記錄,我們可能可以知道某些產品在各地區、各時節的受歡迎程度,甚至某個常客的消費偏好;但是如果我們想要知道某種產品是不是在某種天氣賣得比較好,我們就需要增加一個新的「天氣」欄位,如果我們想知道某種特殊性格的人對某種產品的偏好,我們就需要再增加「消費者性格」的欄位。巨資料的特色之一是資料來源的「多樣性」(variety),這讓我們有很多方式來增加資料表格的寬度,而「寬資料」可以給我們新的機會透過分析而得到新的洞見。
這倒不是說「深資料」就不重要了,事實上當資料表格的寬度增加,我們所需要的資料深度也增加,否則我們找到的「關連性」證據會太過薄弱,很可能只是特例,而不具有參考價值。
A quick take-away: wide data enables us to find new insights, while deep data consolidates the findings.
以上面表格的例子來說,當我們累積了 1000 筆交易記錄,我們可能可以知道某些產品在各地區、各時節的受歡迎程度,甚至某個常客的消費偏好;但是如果我們想要知道某種產品是不是在某種天氣賣得比較好,我們就需要增加一個新的「天氣」欄位,如果我們想知道某種特殊性格的人對某種產品的偏好,我們就需要再增加「消費者性格」的欄位。巨資料的特色之一是資料來源的「多樣性」(variety),這讓我們有很多方式來增加資料表格的寬度,而「寬資料」可以給我們新的機會透過分析而得到新的洞見。
這倒不是說「深資料」就不重要了,事實上當資料表格的寬度增加,我們所需要的資料深度也增加,否則我們找到的「關連性」證據會太過薄弱,很可能只是特例,而不具有參考價值。
A quick take-away: wide data enables us to find new insights, while deep data consolidates the findings.
沒有留言:
張貼留言